Técnicas Multivariadas Completas
Análise de Dados Ambientais
Universidade Estadual de Feira de Santana (UEFS)
Diego Vidal
O que aprenderemos:
Medidas de tendência central
Média simples
Moda
Mediana Medidas de dispersão
Variância
Desvio-padrão
Erro-padrão
Intervalo de Confiança Escore Z
O que são
Objetivos: Encontrar um valor que resuma a variabilidade de um conjunto de dados.
Pesquisa: Investigar os níveis de crescimento radicular frente ao uso de fungos micorrízicos arbusculares (N = 17).
Instrumento de 34 itens
Comprimento (cm)
Escores variam de 34 cm a 170 cm
MÉDIA
Pesquisa: Investigar os níveis de atitude frente ao uso de drogas ilícitas (N = 17).
Escores variando de 34 a 170
2148
17
Média = 126,35
=
N
| Escores dos repetições | ||||||||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 94 | 104 | 107 | 109 | 113 | 117 | 117 | 121 | 127 | 128 | 130 | 132 | 137 | 143 | 153 | 154 | 162 |
MODA
Pesquisa: Investigar os níveis de crescimento radicular frente ao uso de fungos micorrízicos arbusculares (N = 17).
Escores variando de 34 a 170
MODA: O número que aparece mais vezes
117 = 2 vezes; (Unimodal)
| Escores dos repetições | ||||||||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 94 | 104 | 107 | 109 | 113 | 117 | 117 | 121 | 127 | 128 | 130 | 132 | 137 | 143 | 153 | 154 | 162 |
MEDIANA
Pesquisa: Investigar os níveis de crescimento radicular frente ao uso de fungos micorrízicos arbusculares (N = 17).
Escores variando de 34 a 170
MEDIANA:** **O número que divide a amostra em duas metades iguais
| Escores dos repetições | ||||||||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 94 | 104 | 107 | 109 | 113 | 117 | 117 | 121 | 127 | 128 | 130 | 132 | 137 | 143 | 153 | 154 | 162 |
SUMÁRIO
Pesquisa: Investigar os níveis de crescimento radicular frente ao uso de fungos micorrízicos arbusculares (N = 17).
Escores variando de 34 a 170
MÉDIA:** 126,35; MODA:**** 117; MEDIANA:**** **127
| Escores dos repetições | ||||||||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 94 | 104 | 107 | 109 | 113 | 117 | 117 | 121 | 127 | 128 | 130 | 132 | 137 | 143 | 153 | 154 | 162 |
Objetivos:
Ter noção da variabilidade dos escores em torno da média;
Auxilia na interpretação sobre o quanto os casos são semelhantes ou diferentes entre si, frente à variável de interesse
VARIÂNCIA
Pesquisa: Investigar os níveis de crescimento radicular frente ao uso de fungos micorrízicos arbusculares (N = 17).
Escores variando de 94 a 162
2
(x - x)2 (x - x)2 … (*x** - x*)2
*n** *-1
Variância s 1 2 *n** *
| Escores dos repetições | ||||||||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 94 | 104 | 107 | 109 | 113 | 117 | 117 | 121 | 127 | 128 | 130 | 132 | 137 | 143 | 153 | 154 | 162 |
VARIÂNCIA
Pesquisa: Investigar os níveis de crescimento radicular frente ao uso de fungos micorrízicos arbusculares (N = 17).
Escores variando de 94 a 162
2
(x - x)2 (x - x)2 … (*x** - x*)2
*n** *-1
Variância s 1 2 *n** *
MEDIDAS DE DISPERSÃO
| Escores das repetições | ||||||||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 94 | 104 | 107 | 109 | 113 | 117 | 117 | 121 | 127 | 128 | 130 | 132 | 137 | 143 | 153 | 154 | 162 |
| Média = 126,35 |
VARIÂNCIA
Pesquisa: Investigar os níveis de crescimento radicular frente ao uso de fungos micorrízicos arbusculares (N = 17).
Escores variando de 94 a 162
2
(x - x)2 (x - x)2 … (*x** - x*)2
*n** *-1
Variância s 1 2 *n** *
| Escores das repetições | ||||||||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 94 | 104 | 107 | 109 | 113 | 117 | 117 | 121 | 127 | 128 | 130 | 132 | 137 | 143 | 153 | 154 | 162 |
| Média = 126,35 | ||||||||||||||||
| -32,35 | -22,35 | -19,35 | -17,35 | -13,35 | -9,35 | -9,35 | -5,35 | 0,65 | 1,65 | 3,65 | 5,65 | 10,65 | 16,65 | 26,65 | 27,65 | 35,65 |
VARIÂNCIA
16
= 361,74
=
5787,9
*n-**1*
(xi – -x)2
*S2 **=*
MEDIDAS DE DISPERSÃO
| Diferença das médias | ||||||||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| -32,35 | -22,35 | -19,35 | -17,35 | -13,35 | -9,35 | -9,35 | -5,35 | 0,65 | 1,65 | 3,65 | 5,65 | 10,65 | 16,65 | 26,65 | 27,65 | 35,65 |
| 1046,5 | 499,5 | 374,4 | 301,0 | 178,2 | 87,4 | 87,4 | 28,6 | 0,4 | 2,7 | 13,3 | 31,9 | 113,4 | 277,2 | 710,2 | 764,5 | 1270,9 |
VARIÂNCIA
DESVIO-PADRÃO
16
= 361,74
=
5787,9
*n-**1*
(xi – -x)
*S2 **=*
*DP =** *19,02
EP = DP *=** * 19,02 *=** *4,613
𝑁 17
ERRO-PADRÃO
Desvios-padrão** ****entre**** ****as**** ****médias**** das**** ****amostras**** (Field,**** ****2005)**
MEDIDAS DE DISPERSÃO
Pesquisa: Investigar os níveis de crescimento radicular frente ao uso de fungos micorrízicos arbusculares (N = 17).
Escores variando de 34 a 170.
M = 126,35; DP = 19,02; EP = 4,61
MEDIDAS DE DISPERSÃO
ESCORE Z
Z = X – X
s
Onde:
O escore z é uma transformação dos escores brutos, baseadas em desvio- padrão, cuja fórmula é:
*_*
X = escore da amostra;
*_*
X = média amostral;
S = desvio-padrão amostral
Imagine uma variável cuja média é 20 e o desvio-padrão é 2
Se uma repetição tem escore 22, ela está um DP acima da média, logo seu escore Z = 1;
*Z** *= X – X = 22 – 20 = 1
*_*
s 2
Logo:
1 ponto no escore Z é igual ao valor do DP;
Vamos ao exemplo da M = 20; DP = 2.
O** ****escore**** ****Z**** ****é**** ****útil**** ****para**** ****estimar**** ****o**** ****quão**** ****longe**** ****um**** ****sujeito**** ****está**** ****da**** ****média.**
Se a distribuição é normal, do total da amostra:
68,2% terão escore Z entre +-1;
95,4% terão escore Z entre +-2;
99.7% terão escores Z entre +- 3.
O** ****escore**** ****Z**** ****é**** ****útil**** ****para**** ****estimar**** ****o**** ****quão**** ****longe**** ****um**** ****sujeito**** ****está**** ****da**** ****média.**
Quando a amostra não é normal, essa estimativa de % não é precisa, de modo que o escore Z perde um pouco a sua utilidade.
INTERVALO DE CONFIANÇA
É uma outra forma de determinar a precisão da média amostral, como estimativa da média populacional.
Ao calcular o intervalo de confiança, você tem uma amplitude, onde se estipula que a verdadeira média da população estará.
INTERVALO** ****DE**** ****CONFIANÇA**
Pode ser calculado em diferentes probabilidades (usando escore z): 90%, 95%, 99%
IC: M + Z*EP
90% = M + (1,645** **X EP)
95% = M + (1,96** **X EP)
99% = M + (2,575** **X EP)
INTERVALO** ****DE**** ****CONFIANÇA**
Pode ser calculado em diferentes probabilidades (usando escore z): 90%, 95%, 99%
90% = M + (1,645** **X EP)
Limite inferior: 126,35 – (1,645 X 4,61) = 118,76
Limite superior: 126,35 + (1,645 X 4,61) = 133,92 95% = M + (1,96** **X EP)
Limite inferior: 126,35 – (1,96 X 4,61) = 117,30
Limite superior: 126,35 + (1,96 X 4,61) = 137,37 99% = M + (2,575** **X EP)
Limite inferior: 126,35 – (2,575 X 4,61) = 114,46
Limite superior: 126,35 + (2,575 X 4,61) = 138,21 .
.
126,34
*Limite **Inferior*
Lower Bound
Limite superior
Upper Bound
90%
95%
99%
INTERVALO DE CONFIANÇA
INTERVALO** ****DE**** ****CONFIANÇA**
90% = M + (1,645** **X EP)
ESTATÍSTICA INFERENCIAL
Definição:
Inferência estatística refere-se aos resultados derivados da análise estatística dos dados coletados.
Ou seja, a inferência estatística advém de uma relação entre a teoria estatística e os dados reais.
Métodos** ****de**** ****inferência**** ****estatística**** ****para**** ****testes**** ****de**** ****hipóteses**
Testes** ****de**** ****hipóteses**
Hipótese
Testes** ****de**** ****hipóteses**
Passo a passo para o teste de hipóteses:
Crie uma ou mais hipóteses;
Colete dados úteis para testar as hipóteses criadas;
Análise seus dados com testes estatísticos adequados;
Avalie os resultados para ver se eles suportam as hipóteses iniciais.
Testes** ****de**** ****hipóteses**
Ao coletar dados, você se depara com duas possibilidades:
BRS Ajubá
BRS Vitória
35
30
25
20
15
10
5
0
35
30
25
20
15
10
5
0
Hipótese Nula (Ho) O efeito não existe
Hipótese Alternativa (Ha) O efeito existe
BRS Ajubá
BRS Vitória
Testes** ****de**** ****hipóteses**
Erro Tipo I: Rejeito a hipótese nula (Ho), quando Ho é verdadeira;
Afirmo que há efeito, quando não há Erro Tipo II: Aceito a hipótese nula (Ho) ; quando Ho é falsa
Afirmo que não há efeito, quando há Verdadeira Falsa
Rejeito Aceito
| Erro Tipo I | OK |
|---|---|
| OK | Erro Tipo II |
Testes** ****de**** ****hipóteses**
Erro Tipo I: Rejeito a hipótese nula (Ho), quando Ho é verdadeira;
Afirmo que há efeito, quando não há Erro Tipo II: Aceito a hipótese nula (Ho) ; quando Ho é falsa
Afirmo que não há efeito, quando há Você está grávido!
Você não está grávida!
Inferência** ****frequentista**** ****(valor-*****p*****)**
Ronald Fisher (1935)
Critério probabilístico objetivo (valor de *p** *< 0,05)
Teste de significância da hipótese nula (TSHN)
Inferência** ****frequentista**** ****(valor-*****p*****)**
O critério do valor-*p** *de Fisher assume, arbitrariamente uma probabilidade de 5%
de chance de erro na inferência
Método de inferência estatística mais empregado na Psicologia
Inferência** ****frequentista**** ****(valor-*****p*****)**
A cultivar Abacaxi BRS Ajubá apresenta maior nível (M = 6,32; DP = 1,33) de controle controle da fusariose quando comparada a cultivar Abacaxi BRS Vitória(M = 8.79; DP = 1.19; *p** *< 0,05)
Inferência** ****frequentista**** ****(valor-*****p*****)**
Todas as vezes que fazemos uma análise inferencial, você avalia se o efeito foi
estatisticamente significativo (*p** *< 0,05)
Erro** ****Tipo**** ****II:**
O poder de um experimento é a probabilidade de detectar um efeito do
tratamento, se estiver presente.
O efeito não existe
*p** *= 0,08
BRS Ajubá
BRS Vitória
35
30
25
20
15
10
5
0
Erro** ****Tipo**** ****II:**
O poder de um experimento é a probabilidade de detectar um efeito do
tratamento, se estiver presente.
O efeito não existe
*p** *= 0,08
probabilidade de detectar o efeito
1 – 0,20 = 0,80.
(Cohen, 1988, 1992)
35
30
25
20
15
10
5
0
BRS Ajubá
BRS Vitória
Relação** ****direta**** ****entre**** ****** (significância)** ****e**** ** (poder)
Erro do Tipo I: sig. Alfa (p< 0,05)
Erro do Tipo II: Poder [1 – beta(0,20)]: 0,80
Tamanho de efeito:
O que é
A Distribuição Normal é uma das distribuições de probabilidade mais utilizadas para modelar fenômenos naturais.
Isso se deve ao fato de que um grande número de fenômenos naturais apresenta esse tipo de distribuição.
Como acontece
Como acontece a distribuição normal
O que é
O que é
Média
Média = 613 = 76,62
8
| 55 | 64 | 72 | 80 | 70 | 100 | 98 | 74 |
|---|
Desvio-Padrão
Estimativa de variabilidade em torno da média
Média
76cm
244 = 15,64
7
| 55 | 64 | 70 | 72 | 74 | 80 | 98 | 100 |
|---|
A curva normal é definida por meio de duas informações: média e desvio-padrão
Média = 170; DP = 5,72
Frequência (n)
+-1 DP (68.3%) = [164,28– 175,72]
+-2 DP (95,4%) = [158,56– 181,44]
+-3 DP (99,7%) = [152,84 – 187,16]
DESVIOS DE DISTRIBUIÇÃO DE NORMALIDADE
Renda no Brasil
Mais pobres
Mais ricos
DESVIOS DE DISTRIBUIÇÃO DE NORMALIDADE
DESVIO POR ASSIMETRIA
DESVIOS DE DISTRIBUIÇÃO DE NORMALIDADE
DESVIO POR CURTOSE
Leptocúrtica: Dados muito concentrados junto à media;
Mesocúrtica: Distribuição normal
Platicúrtica: Dados muito dispersos; muitas pessoas muito afastadas da média.
TESTANDO A DISTRIBUIÇÃO NORMAL NO JASP
Luiz Diego Vidal - vidal.center@academico.ufs.br - CPF: 033.281.915-93
COMO SABER SE SEUS DADOS SÃO NORMALMENTE DISTRIBUÍDOS?
Critérios descritivos
Transforme o escore da Assimetria e Curtose em escore Z
Calcule: Assimetria e Curtose / Erro padrão
Valor maior que |1.96| é significativo *p** *< .05
Valor acima que |2.58| é significativo *p** *< .01
Valor acima que |3.29| é significativo *p** *< .001
COMO SABER SE SEUS DADOS SÃO NORMALMENTE DISTRIBUÍDOS?
Critérios** ****estatísticos**** ****(**Testes de significância)
Kolmogorov-Smirnov e Shapiro-Wilk
Hipotese nula: Dados não são normalmente distribuídos Espera-se rejeitar a hipótese nula → Dados são normalmente distribuídos
Nos testes de K-S e S-W, espera-se que *p** *> 0,05 (maior que) para acatar a distribuição de normalidade dos dados.
Investigando a associação entre duas variáveis
Definição
Exemplo:
Qual a relação entre o estresse no trabalho e o número de cigarros
fumados em uma amostra de fumantes?
Três características da correlação:
Significância estatística (verificar se p < 0,05)
Direção (positiva ou negativa)
Grau (força: fraca, média e forte)
DIREÇÃO:
Positiva:** **Valores altos em uma variável (x) são associados a valores altos na outra (y). Valores baixos de x tendem a ser associados a valores baixos de y
Ex.: Idade da criança e capacidade de montar lego
Negativa:** **valores altos de uma variável (x) são associados a valores baixos da outra variável (y)
Ex.: Depressão e motivação para trabalhar
Nula:** **Não existe um relacionamento
Ex.: Altura e número de relacionamentos amorosos
DIREÇÃO:
Correlações
Positivas
Correlação Nula
Correlações Negativas
DIREÇÃO:
Correlações
Positivas
Correlação Nula
Correlações Negativas
DIREÇÃO:
Correlações
Positivas
Correlações Negativas
Correlação Nula
DIREÇÃO:
Correlações
Positivas
Correlações Negativas
Correlação Nula
DIREÇÃO:
Correlação perfeita
Sua idade e idade de sua irmã
Correlação imperfeita Inteligência lógico-matemática e nota
na prova de matemática
DIREÇÃO:
Pode ser que não se encontre correlação entre duas variáveis (usando método de cálculo de correlação linear) porque a relação existente é não-linear.
Teria que se usar outro método para cálculo da correlação (não-linear)
Ex. Idade vs. Força física (ou memória; ou comportamentos disruptivos)
COEFICIENTE DE CORRELAÇÃO
0
+1
Correlação** ****perfeita positiva**
COEFICIENTE DE CORRELAÇÃO
Cohen (1988, 1992)
| Magnitude | Valor absoluto |
|---|---|
| Nula | 0,00 |
| Fraca | |
| Moderada | |
| Forte |
COEFICIENTE DE CORRELAÇÃO
| Magnitude | Valor absoluto |
|---|---|
| Nula | 0,00 |
| Fraca | |
| Moderada | |
| Forte | |
| Muito Forte | |
| Perfeita | 1,00 |
TAMANHO** ****DE**** ****EFEITO**
Tamanho de efeito avalia o quanto duas variáveis estão, de fato, correlacionadas.
O tamanho de efeito da correlação explicita o quanto de variância compartilhada
duas variáveis apresentam entre si
TAMANHO DE EFEITO (COEFICIENTE DE DETERMINAÇÃO)
*r** *= 0,60
Coeficiente de Correlação
r2 = 0,36
36,0%
Tamanho de efeito
ou
Variância compartilhada
3%
17%
9%
| (r) | Variância compartilhada (tamanho de efeito, r2) |
|---|---|
| r = 0,10 | r2 = 0,01 = 1% |
| r = 0,20 | r2 = 0,04 = 4% |
| r = 0,30 | r2 = 0,09 = 9% |
| r = 0,40 | r2 = 0,16 = 16% |
| r = 0,50 | r2 = 0,25 = 25% |
| r = 0,60 | r2 = 0,36 = 36% |
| r = 0,70 | r2 = 0,49 = 49% |
| r = 0,80 | r2 = 0,64 = 64% |
| r = 0,90 | r2 = 0,81 = 81% |
| r = 1,00 | r2 = 10,0 = 100% |
CORRELAÇÃO PARAMÉTRICA VS NÃO-PARAMÉTRICA
Karl Pearson
(1857-1936)
Charles Spearman (1863-1945)
Correlação de Pearson vs.
Correlação de Spearman Correlação Kendall Tau-b
Maurice Kendall
(1907-1983)
CORRELAÇÃO PARAMÉTRICA VS NÃO-PARAMÉTRICA
| Kendall (Tau) | |
|---|---|
| Paramétrica | Não–paramétrica |
| Quando usar | |
| Quando os dados têm distribuição normal | Quando os dados não tem distribuição normal |
| Quando o número de participantes é alto | Útil também quando o número de participantes é baixo |
| Medida escalar/intervalar | Medida ordinal |
VAMOS** ****À**** ****PRÁTICA?**
HIPÓTESE:
Dados de resistência a tração e resistência a deformação na tração apresentam associação com a efeitos deletérios da degradação temporal em geotêxteis confeccionados com fibra de Taboa.
Tabela de Correlação
Nota: * = *p** *< 0,05; ** = *p** *< 0,01; n.s. = relação não significativa
| Tempos | Resistência tração | Deformação tração | Rigidez secante | |
|---|---|---|---|---|
| Tempos | 1 | |||
| Resistência tração | -0,596** | 1 | ||
| Deformação tração | 0,282** | -0,135* | 1 | |
| Rigidez secante | -0,491** | 0,788** | 0,030 | 1 |
TÓPICOS ESPECIAIS DE CORRELAÇÃO
DIFERENÇAS NOS NÍVEIS DE CORRELAÇÃO
Muitas vezes, quando realizamos análises de correlação, queremos entender, do
nosso conjunto de variáveis, quais são as que mais fortemente se correlacionam.
Nota: p < 0,01.
“Os efeitos da degradação ao longo do tempo se associou mais moderadamente e de maneira negativa com a resistência a tração (r = - 0,596, p < 0,01) do que com a rigidez secante (r = - 0,491, p < 0,01).
Forma de meia verdade!
| Tempos | Resistência tração | Deformação tração | Rigidez secante | |
|---|---|---|---|---|
| Tempos | 1 | |||
| Resistência tração | -0,596** | 1 | ||
| Deformação tração | 0,282** | -0,135* | 1 | |
| Rigidez secante | -0,491** | 0,788** | 0,030 | 1 |
DIFERENÇAS NOS NÍVEIS DE CORRELAÇÃO
Nota: * = *p** *< 0,05; ** = *p** *< 0,01.
Fisher´s r-to-z transformation test
http://psychometrica.de/correlation.htm
| Tempos | Resistência tração | Deformação tração | Rigidez secante | |
|---|---|---|---|---|
| Tempos | 1 | |||
| Resistência tração | -0,596** | 1 | ||
| Deformação tração | 0,282** | -0,135* | 1 | |
| Rigidez secante | -0,491** | 0,788** | 0,030 | 1 |
DIFERENÇAS NOS NÍVEIS DE CORRELAÇÃO
Muitas vezes, quando realizamos análises de correlação, queremos entender, do
nosso conjunto de variáveis, quais são as que mais fortemente se correlacionam.
Nota: p < 0,01.
“O teste r-to-z de transformação de Fisher demonstrou que os efeitos deletérios da degradação do geotêxtil ao longo do tempo se associou mais fortemente com a resistência a tração a ruptura (r = - 0,596, p < 0,01) do que com a rigidez secante (r = 0,491, p < 0,01) (z = - 2.885; p < 0,002).”
| Tempos | Resistência tração | Deformação tração | Rigidez secante | |
|---|---|---|---|---|
| Tempos | 1 | |||
| Resistência tração | -0,596** | 1 | ||
| Deformação tração | 0,282** | -0,135* | 1 | |
| Rigidez secante | -0,491** | 0,788** | 0,030 | 1 |
TIPO ESPECIAL DE CORRELAÇÃO (PONTO
BISSERIAL)
Utilizada quando se pretende avaliar a relação entre uma variável ordinal (ou escalar, ex: altura) com outra variável dicotômica (ex: sexo – masculino e feminino).
Serve como um indício para saber se existem diferenças nos escores dos grupos em relação à variável de interesse.
Resistência a punção
Sem Resina
Com Resina
CORRELAÇÃO** ****NÃO**** ****É**** ****CAUSALIDADE**
Correlação não é sinônimo de causalidade
A correlação entre duas variáveis pode ser causada por uma terceira variável oculta;
CORRELAÇÃO** ****NÃO**** ****É**** ****CAUSALIDADE**
Spurious Correlations
Ir à praia
Tomar
sorvete
TEMPERA TURA
CORRELAÇÃO** ****NÃO**** ****É**** ****CAUSALIDADE**
É possível encontrar uma correlação completamente espúria entre duas variáveis.
Spurious Correlations
REGRESSÃO
Definição
Técnica de análise de dados que explica quanto uma ou mais variáveis preditoras (VIs) explicam ou estão associadas com um desfecho (VD)
Regressão linear simples Uma variável dependente e uma variável independente
Regressão linear múltipla Uma variável dependente e várias variáveis independentes
Regressão logística Uma variável dependente (dicotômica) e uma ou mais variáveis independentes
Regressão multinomial Uma variável dependente (politômica) e uma ou mais variáveis independentes
O quanto uma ou mais variáveis explicam outra
REGRESSÃO LINEAR
Definição
Conquistas educacionais
Autoestima
Conquistas educacionais
Variável dependente Variável desfecho
Variável independente Variável preditora
REGRESSÃO LINEAR
Como se calcula a regressão
Y = B0 + BxX + E
Em que:
Y = variável dependente.
B0 = intercepto (constante).
Bx = o nível sobre o quanto X impacta Y. X = variável independente.
E = erro aleatório.
REGRESSÃO LINEAR
Um empresário quer saber o quanto o investimento em propagandas aumentou as suas
vendas ao longo do mês.
Propaganda (VI)
Vendas (VD)
REGRESSÃO LINEAR
Um empresário quer saber o quanto o investimento em propagandas aumentou as suas
vendas ao longo do mês.
Y = o desfecho (vendas)
B0 = intercepto (constante) → o escore no desfecho quando o preditor tem valor = 0 (quando
ele não investia em propaganda, qual era o valor de y (vendas)?
X = o nível do preditor (o quanto foi investido em propaganda).
Bx = o grau sobre o quanto X (propaganda) impacta Y (venda).
E = a porção de variância não explicada pela variável independente (o quanto a propaganda não foi útil para aumentar a venda)
REGRESSÃO LINEAR
Um empresário quer saber o quanto o investimento em propagandas aumentou as suas
vendas ao longo do mês.
Constante (Bo)
A regressão irá traçar a linha que explica a influência da variável preditora no desfecho.
As variações se dão por razões externas que explicam a venda (para além da propaganda).
Por causa dessas influências externas, nenhum modelo é perfeito (livre de erro), e por isso nenhum preditor é capaz de prever 100% o desfecho.
Luiz Diego Vidal - vidal.center@academico.ufs.br - CPF: 03.281.915-93
REGRESSÃO LINEAR
Informações** ****que**** ****a**** ****regressão**** ****traz****:**
REGRESSÃO LINEAR
Tipos** ****de**** ****variáveis**
Variável dependente
Sempre ordinal ou escalar (ou seja, uma variável crescente) Variável independente
Pode ser de diferentes categorias
Ordinal, escalar ou categórica (dicotômica; se politômica, usar dummy)
REGRESSÃO LINEAR
Principais** ****pressupostos**
REGRESSÃO LINEAR
Vamos** ****à**** ****prática…**
REGRESSÃO LINEAR MÚLTIPLA
MÚLTIPLA
Equivalente à regressão linear simples, com a diferença de que são adicionados
vários preditores
MÚLTIPLA
Simples:** **Y = B0 + BxX + E
Múltipla:** Y = B0 + B*****1******X******1****** ******+****** ******B******2******X******2****** ******+****** ******…****** ******+****** ******B******n******X******n****** ***+ E
MÚLTIPLA
| Métodos de Entrada | Característica | Vantagens | Desvantagens |
|---|---|---|---|
| Enter (Inserir) | Todas as variáveis são | ||
| inseridas de uma vez | Simplicidade | Multicolinearidade |
Não apresenta o R2 de cada variável |
MÚLTIPLA
| Métodos de Entrada | Característica | Vantagens | Desvantagens |
|---|---|---|---|
| Enter (Inserir) | Todas as variáveis são | ||
| inseridas de uma vez | Simplicidade | Multicolinearidade |
Não apresenta o R2 de cada variável | | Stepwise (Por etapa) | Variáveis inseridas passo-a-passo, com base na significância do F | Modelo mais parcimonioso Apresenta o R2 de cada variável | A significância de F sofre efeito do tamanho amostral. Efeito supressor* |
MÚLTIPLA
| Métodos de Entrada | Característica | Vantagens | Desvantagens |
|---|---|---|---|
| Enter (Inserir) | Todas as variáveis são | ||
| inseridas de uma vez | Simplicidade | Multicolinearidade |
Não apresenta o R2 de cada variável | | Stepwise (Por etapa) | Variáveis inseridas passo-a-passo, com base na significância do F | Modelo mais parcimonioso Apresenta o R2 de cada variável | A significância de F sofre efeito do tamanho amostral. Efeito supressor* | | Forward (Avançar) | Variáveis inseridas passo-a-passo, com base na correlação parcial da VI com a VD | Modelo mais parcimonioso Apresenta o R2 de cada variável | Sofre influência das variáveis do modelo. Efeito supressor |
MÚLTIPLA
| Métodos de Entrada | Característica | Vantagens | Desvantagens |
|---|---|---|---|
| Backward | |||
| (Retroceder) | Variáveis excluídas | ||
| passo a-passo | Elimina possíveis erros de inserção dos métodos stepwise e forward | - |
MÚLTIPLA
| Métodos de Entrada | Característica | Vantagens | Desvantagens |
|---|---|---|---|
| Backward | |||
| (Retroceder) | Variáveis excluídas | ||
| passo a-passo | Elimina possíveis erros de inserção dos métodos stepwise e forward | - | |
| Remove (Remover) | Escolha manual de quais variáveis serão excluídas para comparar modelos | Pesquisador testa os modelos que gostaria | Escolhas arbitrárias podem ser perigosas |
MÚLTIPLA
Problemas** ****das**** ****variáveis**
Independência entre as variáveis independentes (não deve haver muita multicolinearidade).
MÚLTIPLA
Problemas** ****da**** ****amostra**
Independência entre os resíduos.
Resíduo** ****Padronizado:**** **acima de 3 → Outlier
MÚLTIPLA
Problemas** ****da**** ****amostra**
Cook´s** ****Distance**
Avalia o efeito de um único caso no modelo como um todo. Valores maiores que 1 merecem atenção! Mahalanobis** ****Distance:**
N = 500; 5 Vis → Mahalanobis = 25 valor problemático;
N = 100; 3 Vis → Mahalanobis = 15 valor problemático;
N = 30; 2 Vis → Mahalanobis = 11 valor problemático;
MÚLTIPLA
Tamanho** ****amostral**
Mais confiável calcular no G*Power
MÚLTIPLA
Vamos** ****à**** prática…**
REGRESSÃO LOGÍSTICA BINÁRIA
BINÁRIA
Tem por objetivo quantificar a probabilidade de um evento acontecer, de acordo com
os preditores inseridos no modelo
Regressão logística binária refere-se a um modelo onde a variável dependente tem
duas categorias
BINÁRIA
Tem por objetivo quantificar a probabilidade de um evento acontecer, de acordo com os
preditores inseridos no modelo
Transformação logarítimica (logit) do modelo de regressão simples
*P(Y)** *=
1
1 1
1+𝑒−(𝑏𝑜+𝑏 𝑥 )
Regressão Simples
Regressão Múltipla
*P(Y)** *=
1
1 11 2 2
1+𝑒−(𝑏𝑜+𝑏 𝑥 +𝑏 𝑥 + …+𝑏𝑛𝑥𝑛)
BINÁRIA
Cada sujeito está ou não está em um grupo
Exemplo: A probabilidade que pessoas que fumam terem desenvolvido câncer, comparado com os que não fumam.
Desfecho: Não teve câncer de Pulmão (0) x Teve câncer de pulmão (1)
Variável preditora: Fumou x Não Fumou (Dicotômica)
Variável preditora: Número de cigarros fumado por mês (Contínua)
Variável preditora: Marca do cigarro fumado (Hollywood, Marlboro, Camel, LuckyStrike)
BINÁRIA
A probabilidade que pessoas que fumam terem desenvolvido câncer, comparado
com os que não fumam.
0
600
BINÁRIA
Log-likelihood é uma estatística baseada em variância não explicada (resíduos)
Quanto menor o valor, melhor o modelo.
A qualidade do modelo é calculado através de uma estatística chamada -2LL
Ao adicionar novas variáveis, o valor do 2LL deve diminuir, atestando que a variável é capaz de melhorar** **o poder de predição do modelo;
Essa diminuição precisa ser estatisticamente significativa (distribuição qui-quadrado);
BINÁRIA
Acessando** ****a**** ****qualidade**** ****do**** ****modelo**
R-statistic → Correlação parcial de cada VI com a VD
Estatística enviesada por utilizar a função de Wald
BINÁRIA
Acessando** ****a**** ****qualidade**** ****do**** ****modelo**
Cox & Snell R2: Não atinge o valor de 1;
Nagelkerke R2: Corrige a medida de Cox & Snell
BINÁRIA
Acessando** ****o**** ****poder**** ****de**** ****predição**** ****das**** ****variáveis**
BINÁRIA
Acessando** ****o**** ****poder**** ****de**** ****predição**** ****das**** ****variáveis**
BINÁRIA
Análises** ****da**** ****capacidade**** ****de**** ****predição**** ****do**** ****modelo**
Probabilities e Group Membership
Avalia a probabilidade de cada caso ser adequadamente categorizado, de acordo com o seu próprio padrão de resposta Classification plots
Histograma dos valores reais e previstos para o desfecho;
Testes de Comparação de Médias
TESTE T ESTUDENT
Definição
TESTE T ESTUDENT
Três tipos de teste T (ou testes de diferenças de médias)
Amostra única
Pressupostos do Teste t
TESTE T ESTUDENT
| Distribuição normal na população. |
| A medida deve estar em nível intervalar (Aceita-se contínua) |
| Independência das respostas |
Amostra independente O comportamento de uma repetição não influencia o comportamento de outro) Amostra dependente A resposta da amostra em T1 não influencia a resposta do amostra em T2 |
Amostra Única (One-Sample *t** *test)
Quando se utiliza:
Comparação de um único grupo em relação a valores determinados
É utilizado para saber se os dados que você obteve na sua amostra é estatisticamente equivalente ou diferente dos dados populacionais.
Valores** ****externos ****já**** ****conhecidos**
comparado à
TESTE T ESTUDENT
AMOSTRA ÚNICA
Exemplo** ****1:**
No Brasil, cerca de 8.561 Eng. Agrônomos são formados por ano. Uma pesquisa, com dados coletados entre 1995 e 2015 demonstrou que, a cada ano, em média, 2750 começam a trabalhar na área logo após formado. Ou seja, um total de 18,3%.
Uma faculdade formou 100 profissionais a cada ano, ao longo de 10 anos (2009 - 2019), e,
em média, 12,3% estavam trabalhando no ano seguinte.
A taxa de empregabilidade da Faculdade é equivalente a taxa empregabilidade nacional?
Valores** ****externos**
já** ****conhecidos**
comparado à
TESTE T ESTUDENT
AMOSTRA ÚNICA
TESTE T ESTUDENTAMOSTRA ÚNICA
Exemplo** ****prático****:**
Um professor desconfia que o nível de satisfação dos seus alunos durante sua disciplina é inferior à sua meta (Nota 9,0). Para testar essa hipótese, ele entrevistou 20 clientes e questionou os seus níveis de satisfação, conforme abaixo:
(A diferença não existe)
(A diferença existe. A média dele seria menor do que 9)
| 7 | 9 | 9,5 | 8,9 | 10 | 9,8 | 7,9 | 8,9 | 9,1 | 9,3 |
|---|---|---|---|---|---|---|---|---|---|
| 9,4 | 7,9 | 8,7 | 8,8 | 8,5 | 9,0 | 9,1 | 7,6 | 7,5 | 8 |
TESTE T ESTUDENTAMOSTRA ÚNICA
Exemplo** ****prático:**
*_*
*X** *= 8,645 (Média; M)
*S** *= 0,81 (Desvio-Padrão; DP)
0,81 / √20
8,645 - 9
=
= - 1,960
| 7 | 9 | 9,5 | 8,9 | 10 | 9,8 | 7,9 | 8,9 | 9,1 | 9,3 |
|---|---|---|---|---|---|---|---|---|---|
| 9,4 | 7,9 | 8,7 | 8,8 | 8,5 | 9,0 | 9,1 | 7,6 | 7,5 | 8 |
Exemplo** ****prático:**
O valor tabelado de t depende do nível de significância (5%; p < 0,05) e dos graus de liberdade, que dependem do tamanho da amostra (gl = n – 1 = 19).
Nesse exemplo, *t** *tabelado = 2,093
(VER** ****TABELA**** ****T)**
1,960
TESTE T ESTUDENT
AMOSTRA ÚNICA
VAMOS** ****À**** ****PRÁTICA!**
TESTE T ESTUDENT
AMOSTRA ÚNICA
Amostras independentes
Dois** ****grupos**** ****de**** ****repetições**
Avalia a diferença nos níveis de uma variável X entre dois
grupos independentes
TESTE T ESTUDENT
AMOSTRAS INDEPENDENTES
Exemplos** ****de ****pesquisa:**
Uma variável dicotômica
Uma variável ordinal/escalar
TESTE T ESTUDENT
AMOSTRAS INDEPENDENTES
| Pergunta Inicial | Variável métrica/ordinal | Grupos |
|---|---|---|
| Existem diferenças nos níveis de | níveis de intensificação do pastejo | bovinos de corte sob sistema intermitente? |
| Existem diferenças na | capacidade de contenção de taludes | em repetições de geogrid com e sem aplicação de resina? |
| Existem diferenças no | número de quedas de | Taludes com uso de pinos de erosão em latossolos? |
| Existem diferenças nos níveis de | salpicamento | entre solos com e sem cobertura vegetal? |
Existem diferenças nos níves de erosão por salpicamento em latossolos com e sem cobertura do solo?
Média = 6,86
*DP** *= 2,03
Média = 9,57
*DP** *= 2,22
TESTE T DE STUDENT
AMOSTRAS INDEPENDENTES
| Coberto | Não coberto |
|---|---|
| 12 | 10 |
| 9 | 8 |
| 6 | 8 |
| 11 | 4 |
| 12 | 5 |
| 9 | 7 |
| 8 | 6 |
Existem diferenças nos níves de erosão por salpicamento em latossolos com e sem cobertura do solo?
TESTE T DE STUDENT
AMOSTRAS INDEPENDENTES
Média = 6,86
*DP** *= 2,03
Média = 9,57
*DP** *= 2,22
| Coberto | Não coberto |
|---|---|
| 12 | 10 |
| 9 | 8 |
| 6 | 8 |
| 11 | 4 |
| 12 | 5 |
| 9 | 7 |
| 8 | 6 |
Pressupostos
AMOSTRAS INDEPENDENTES
Homogeneidade de variância (homocedasticidade)
Médias
TESTE T DE STUDENT
AMOSTRAS INDEPENDENTES
Homogeneidade de variância (homocedasticidade)
Médias
TESTE T DE STUDENT
AMOSTRAS INDEPENDENTES
Homogeneidade de variância (homocedasticidade)
OBS.: Os teste *t de** Student aceita que o pressuposto da homogeneidade de variâncias não seja acatado, pois ele tem, embutido na análise do SPSS, a correção de Levene.*
TESTE T DE STUDENT
AMOSTRAS INDEPENDENTES
Vamos à prática
TESTE T DE STUDENT
AMOSTRAS INDEPENDENTES
Amostras dependentes (pareadas/medidas repetidas)
TESTE T DE STUDENT
AMOSTRAS DEPENDENTES
Amostras dependentes / pareadas ou medidas repetidas
Avalia em que medida há mudanças no escore de** ****um**** ****mesmo**** ****grupo**, em dois momentos distintos
Tempo 2
Comparação de 3 (ou mais) grupos
ANÁLISE DE VARIÂNCIA
O** ****que**** ****é**
ANOVA refere-se à um conjunto de testes de diferenças de grupos, utilizado para avaliar
em que medida três ou mais grupos diferem em relação à uma variável de interesse.
OU
O quanto uma mesma variável mensurada em três ou mais vezes variou ao longo do tempo.
ANOVAS
| Nome | Característica | Exemplo |
|---|---|---|
| ANOVA | Uma variável independente (categórica) e uma variável dependente | [Geotêxtil] x Efeito splash |
| ANOVA FATORIAL | Duas (ou +) variáveis independentes e uma variável dependente | [Geotêxtil x Cobertura do solo (Ter/Não ter)] x Efeito splash |
| ANCOVA | Uma variável independente, uma variável dependente (e uma ou mais variáveis de controle) | [Geotêxtil] x splash (Controlado por ter ou não ter cobertura) |
ANOVAS
| Nome | Característica | Exemplo |
|---|---|---|
| ANOVA-MR | Uma variável dependente mensurada 3 (ou +) vezes | Efeito splash (pré-teste, pós-teste e follow-up) |
| ANOVA FATORIAL- | ||
| MR | Duas (ou +) variáveis de grupo mensuradas 3 (ou +) vezes | Splash e Crescimento da vegetação (pré- |
| teste, pós-teste e follow-up) | ||
| MANOVA-MR | Uma variável de grupo e duas (ou +) variáveis dependentes | Geotêxtil e Resina protetora (pré- teste, pós-teste e follow-up) |
ANOVA
Porque realizar uma ANOVA
ANOVA
Por que realizar uma ANOVA
3 comparações: G1-G2;
G1-G3;
G2-G3.
Aumento do Erro Tipo I
3 comparações
Taboa
Juncos
Ouricuri
ANOVA
Distribuição de normalidade dos dados
Os escores dos grupos nas variáveis de interesse distribuem-se normalmente.
Avaliação de curtose e assimetria; Testes de normalidade (Kolgomorov-Smirnov; Shapiro-Wilk) Homogeneidade de variância
As variâncias dentro de cada grupo é igual (ou pelo menos aproximada) àquela dentro de todos os grupos.
Teste de Levene Amostras independentes
As fibras analisadas respondem de maneira independente.
Delineamento metodológico / Coleta de dados
Tamanho de efeito Eta parcial
ANOVA DE UMA VIA (ANOVA ONE-WAY)
ANOVA *ONE-**WAY*
Níveis de perda de solo entre parcelas com diferentes
tipos de cobertura de solo
VD
FATOR
Uma variável categórica (Estado civil)
Uma variável métrica/ordinal (Satisfação com a vida)
| Cobertura de solo | Variável métrica/ordinal |
|---|---|
| Sem cobertura | Perda de solos |
| Cobertura parcial | |
| Cobertura densa |
ANOVA *ONE-**WAY*
Como se calcula a ANOVA
Na ANOVA, comparamos a variância entre grupos (between-group)*** com a variância intragupo (within-******group).***
Ao comparar essas duas medidas de variância, podemos dizer se os repetições de
diferentes grupos são diferentes entre si para determinada variável de interesse
ANOVA *ONE-**WAY*
Como se calcula a ANOVA
Variância intragrupo (*within)** *– O quanto os repetições de cada grupo se diferem entre si
Variância entre grupos (between) – O quanto os repetições dos diferentes grupos se diferem entre si
ANOVA ONE-WAY
Soma dos quadrados (Sum of Squares)
=** ****Média =**** ****4,777**
| Sujeito | Grupo | Escore | Média | Diferença |
|---|---|---|---|---|
| 1 | 1 | 5 | 4,77 | 0,222 |
| 2 | 1 | 3 | -1,778 | |
| 3 | 1 | 6 | 1,222 | |
| 4 | 2 | 4 | -0,778 | |
| 5 | 2 | 3 | -1,778 | |
| 6 | 2 | 2 | -2,778 | |
| 7 | 3 | 5 | 0,222 | |
| 8 | 3 | 6 | 1,222 | |
| 9 | 3 | 9 | 4,222 | |
| Soma | - | 43 | 0 |
ANOVA *ONE-**WAY*
Soma dos quadrados totais (*Sum of Squares SS**t*)
| Sujeito7 | Grupo | Escore | Média | Diferença | Diferença2 |
|---|---|---|---|---|---|
| 1 | 1 | 5 | 4,777 | 0,222 | 0,049 |
| 2 | 1 | 3 | -1,778 | 3,160 | |
| 3 | 1 | 6 | 1,222 | 1,494 | |
| 4 | 2 | 4 | -0,778 | 0,605 | |
| 5 | 2 | 3 | -1,778 | 3,160 | |
| 6 | 2 | 2 | -2,778 | 7,716 | |
| 7 | 3 | 5 | 0,222 | 0,049 | |
| 8 | 3 | 6 | 1,222 | 1,494 | |
| 9 | 3 | 9 | 4,222 | 17,827 | |
| Soma | - | 43 | 0 | 35,556 |
ANOVA *ONE-**WAY*
Soma dos quadrados do modelo (*Sum of Squares SS**m*)
SQM =Σnk (𝑥ҧk − 𝑥ҧ geral)2
SQM1 = 3*(0,10)2 = 0,03
SQM2 = 3*(1,77)2 = 9,40
SQM3 = 3*(-1,90)2 = 10,83
SQM = 20,26
| Grupo | SQM | ||||
|---|---|---|---|---|---|
| 1 | 1 | 5 | 4,777 | 4,67 | 0,03 |
| 2 | 1 | 3 | |||
| 3 | 1 | 6 | |||
| 4 | 2 | 4 | 3,00 | 9,4 | |
| 5 | 2 | 3 | |||
| 6 | 2 | 2 | |||
| 7 | 3 | 5 | 6,66 | 10,83 | |
| 8 | 3 | 6 | |||
| 9 | 3 | 9 | |||
| Total | - | 43 | 20,26 |
ANOVA *ONE-**WAY*
O que sabemos até agora:
ANOVA ONE-WAY
gl
2
Média da Soma dos Quadrados (Sum of Squares Mean)
ANOVA ONE-WAY
Gl da amostra = Número de repetições – número de grupos → (9-3) = 6
gl
6
Média dos Quadrados dos Resíduos (Sum of Squares of Residuals)
MSQR = MSQ = 15,30 = 2,55
ANOVA *ONE-**WAY*
Chegamos à nossa tão esperada estatística F
*F** *(2, 6) = MSQM = 10,13 = 3,97
Como saber se o valor de F é significativo ou não?
Observando a tabela normativa.
MSQR
2,55
ANOVA *ONE-**WAY*
POST-HOC
A ANOVA é um teste generalista (omnibus). A estatística F indica se há diferenças estatisticamente significativas, mas não nos informa aonde estão as diferenças.
Grupo 1 se diferencia do Grupo 2, mas não do Grupo 3;
Grupo 3 se diferencia do Grupo 2, mas não do Grupo 1;
Todos os grupos se diferenciam entre si; O que testaremos?
Os grupos diferem entre si? Sim/Não? (Estatística F)
Quais grupos diferem entre si? (Testes post-hoc)
ANOVA *ONE-**WAY*
Vamos à prática
ANOVA FATORIAL
ANOVA FATORIAL
Níveis de satisfação com a vida entre homens e mulheres com
diferentes tipos de relacionamentos amorosos
VD
FATORES (VI)
| VIs | Variável métrica/ordinal | |
|---|---|---|
| Tratamentos | Sem Resina | Resistência a tração […] |
| 1x Resina | ||
| 2x Resina | ||
| Tempos | 1ºa 180º dias |
ANOVA FATORIAL
Níveis de resistência entre as aplicações de resina em diferentes tempos de degradação
ANOVA FATORIAL
ANOVA 2X2 = 4 condições testadas
ANOVA 3X2
ANOVA 4X4
ANOVA 4X4X2 → 32 condições testadas
múltiplas comparações irão tornar a discussão dos seus resultados um caos.
ANCOVA
ANÁLISE DE COVARIÂNCIA
Análise de Covariância
ANOVA FATORIAL
Análise de Covariância
ANOVA FATORIAL
Análise de Covariância
MEDIDAS REPETIDAS
ANOVA MEDIDAS REPETIDAS
Assim como nas ANOVAS anteriores, o objetivo da ANOVA – MR continua sendo comparar médias.
Entretanto, o escore a ser comparado não é entre diferentes grupos, mas sim de um único grupo comparado com si próprio.
ANOVA MEDIDAS REPETIDAS
Mesmos repetições (Condições diferentes)
| Taboa | Sem resina | 1x resina | 2x resina |
|---|---|---|---|
| Amostra 1 | 7 | 6 | 8 |
| Amostra 2 | 4 | 9 | 9 |
| Amostra 3 | 6 | 5 | 6 |
| Amostra 4 | 8 | 7 | 7 |
| Amostra 5 | 9 | 4 | 4 |
| Amostra 6 | 8 | 8 | 5 |
| Amostra 7 | 5 | 10 | 8 |
| Amostra 8 | 6 | 8 | 7 |
ANOVA MEDIDAS REPETIDAS
Pressuposto de normalidade (S-K, K-W);
Pressuposto de homogeneidade (Levene);
Esfericidade (Com três ou mais condições/tempo) (Mauchly);
Distribuição normal dos resíduos.
Novo pressuposto: Esfericidade** **(Com três ou mais condições/tempo)
Quase impossível
Teste de esfericidade entra como uma solução para quando a homogeneidade de variância não é acatada
Teste de esfericidade de Mauchly
Correções ao pressuposto da esfericidade
Importante:
Normalidade dos dados
Não se refere mais à distribuição da variável, mas sim, dos** **resíduos (i.e., variância não explicada pelo modelo)
ANOVA MEDIDAS REPETIDAS
Expected Maximization (Maximização Esperada):
Os dados de todos os respondentes são utilizados para tentar estimar a melhor resposta do sujeito aos dados faltantes;
O processo se incia com a média dos itens e com o padrão de covariância das variáveis.
É gerado o primeiro banco sem missing;
Com esse novo banco completo, um novo processo é feito, buscando substituir novamente os valores que anteriormente tinham missing;
É repetido “N” vezes, até que não haja mais diferenças estatisticamente significativas.
MISSING
Substituição pela média
A média dos itens permanece a mesma
Aumenta o poder da amostra
Desvantagem:
Multiple Imputation (Imputação Múltipla):
MISSING
MANOVA
MANOVA
A MANOVA é uma extensão da ANOVA e se diferencia por ter várias variáveis dependentes
ANOVA → TESTE T
MANOVA → ANOVA
Vantagens da MANOVA:
MANOVA
O poder da combinação linear das variáveis
Exemplo com os geotêsteis
Grupo: Taboa, Ouricuri, Junco
VIs:
sua combinação linear.
MANOVA
Novos pressupostos
Normalidade uni e multivariada
Homogeneidade de variância e co-variância
MANOVA
Diferentes formas de extrair os resultados da MANOVA
Traço** ****de**** ****Pillai**** ****(Pillai´s**** ****Trace)**
Lamba** ****de**** ****Wilks**** ****(Wilk´s**** ****Lambda)**
T2 de Hotelling (Hotelling´s T2)
Maior raiz de Roy (Roy´s Largest Root)
MANOVA-MR
Vamos à prática
DADOS
DADOS
Dados faltantes(missing):
Indicam que, pro algum motivo, as amostras se perderam;
Nesta pesquisa está mais ligado ao rompimento do corpo de prova antes do desfecho.
MISSING
MANOVA
Vamos à prática:
Testes de Comparação de Grupos
TESTES NÃO-PARAMÉTRICOS
DE DIFERENÇAS DE GRUPOS
O que são:
Testes não paramétricos são utilizados quando os pressupostos dos testes paramétricos não são acatados:
Possui menos pressupostos e mais simples
Lógica matemática incrivelmente simples
Estrutura dos dados mais simples (e realista)
Possibilidade de utilização do teste em amostras muito pequenas
Entendendo as equivalências entre os testes
TESTES NÃO-PARAMÉTRICOS
DE DIFERENÇAS DE GRUPOS
| Paramétricos | Não-paramétricos |
|---|---|
| Teste t para amostras independentes | Mann-Whitney |
| Análise de Variância | Kruskal-Wallis |
| Teste t para amostras dependentes | Wilcoxon Signed Rank |
| Análise de Variância de Medidas Repetidas | ANOVA de Friedman |
Algumas questões iniciais importantes:
DE DIFERENÇAS DE GRUPOS
Comparação entre dois grupos independentes
MANN-WHITNEY
DOIS GRUPOS INDEPENDENTES
Comparação de 2 grupos independentes
| Sujeito | Tratamento | Escore |
|---|---|---|
| 1 | A | 4 |
| 2 | B | 6 |
| 3 | A | 5 |
| 4 | B | 9 |
| 5 | B | 7 |
| 6 | A | 11 |
| 7 | B | 11 |
| 8 | A | 5 |
| 9 | B | 13 |
| 10 | A | 12 |
Soma de postos:
Grupo A: 22,5
Grupo B: 32,5
MANN-WHITNEY
DOIS GRUPOS INDEPENDENTES
| Tratamento | Escore | Posto | Posto Real |
|---|---|---|---|
| A | 4 | 1 | 1 |
| A | 5 | 2 | 2,5 |
| A | 5 | 3 | 2,5 |
| B | 6 | 4 | 4 |
| B | 7 | 5 | 5 |
| B | 9 | 6 | 6 |
| A | 11 | 7 | 7,5 |
| B | 11 | 8 | 7,5 |
| A | 12 | 9 | 9 |
| B | 13 | 10 | 10 |
Cálculo do Mann-Whitney
Uma das fórmulas para se calcular o valor de U (quando o número de repetições por grupo
é menor que 20)
Onde:
U = estatística a ser calculada;
N = número de participantes por grupo
R = valor da soma dos postos
2
Ui = N1N2 + N1 (N1 + 1) – R
2
A
*U = 25 + 5(6) – 22,5 =** 17,5*
UB = 25 + 5(6) – 32,5 = 7,5
2
MANN-WHITNEY
DOIS GRUPOS INDEPENDENTES
UB = 25 + 5(6) – 32,5 = 7,5
2
MANN-WHITNEY
DOIS GRUPOS INDEPENDENTES
Opções alternativas do Mann-Whitney
Kolmogorov-Smirnov Z: Maior poder quando N < 25 por grupo;
Moses Extreme Reaction: Compara a variabilidade dos escores entre os grupos (relativamente semelhante a um teste de homogeneidade de variância)
Wald-Wolfowitz runs: A derivação de significância é um pouco diferente do Mann-Whitney. Aqui, se avalia a ordenação dos postos e não a sua soma. Raramente utilizado. MANN-WHITNEY
DOIS GRUPOS INDEPENDENTES
Comparação entre três (ou +) grupos independentes
Kruskall-Wallis
Grupo B: 20
Grupo C: 19
A estatística H é calculada, considerando a soma de postos de cada
grupo, ponderando pelo total de participantes por grupo (N);
A significância do teste de Kruskall-Wallis é baseada na tabela de significância do qui-quadrado, e portanto, leva em consideração os graus de liberdade (kgrupos - 1)
MANN-WHITNEY
DOIS GRUPOS INDEPENDENTES
| Tratamento | Escore | Posto | Posto Real |
|---|---|---|---|
| A | 4 | 1 | 1 |
| C | 5 | 2 | 2,5 |
| B | 5 | 3 | 2,5 |
| C | 6 | 4 | 4 |
| C | 7 | 5 | 5 |
| A | 9 | 6 | 6 |
| B | 11 | 7 | 7,5 |
| C | 11 | 8 | 7,5 |
| A | 12 | 9 | 9 |
| B | 13 | 10 | 10 |
Kruskall-Wallis
Na medida que o valor de H é estatisticamente significativo, isso significa que existem diferenças entre os grupos
Segunda etapa: achar as diferenças (pairwise comparisons)
Controle do Erro Tipo I
DOIS GRUPOS INDEPENDENTES
Comparação entre dois grupos dependents (medidas repetidas)
WILCOXON SIGNED-RANK
DOIS GRUPOS DEPENDENTES
Wilcoxon Signed Rank Test (1947): Substitui o Teste t de Student para Medidas
Repetidas
Comparação nos escores entre um grupo que respondeu à pesquisa duas vezes
Tempo** ****1**** ****Tempo**** ****2**
Nível** ****de**
Estresse
Nível** ****de**
Estresse
Nível** ****1**
Nível** ****2**
Wilcoxon Signed Rank Test (1947)
- Postos são ordenados;
Empates (Diff = 0) são excluídos;
O sinal da diferença (positivo ou negativo) é considerada no rankeamento;
É calculada uma soma dos ranks positivos (T+) e negativos (T-);
A estatística *T** *geral e o erro padrão é computado;
Escore *T** *é transformado em um escore Z para se avaliar a significância estatística.
WILCOXON SIGNED-RANK
DOIS GRUPOS DEPENDENTES
| Sujeito | Pré | Pós | Diff | Sinal |
|---|---|---|---|---|
| 1 | 5 | 7 | 2 | + |
| 2 | 6 | 6 | 0 | Tie |
| 3 | 2 | 3 | 1 | + |
| 4 | 4 | 8 | 4 | + |
| 5 | 6 | 7 | 1 | + |
| 6 | 7 | 6 | 1 | - |
| 7 | 3 | 7 | 4 | + |
| 8 | 5 | 8 | 3 | + |
| 9 | 5 | 5 | 0 | Tie |
| 10 | 5 | 8 | 3 | + |
Comparação entre três ou + grupos dependentes (medidas repetidas)
ANOVA DE FRIEDMAN
TRÊS GRUPOS DEPENDENTES
ANOVA de Friedman: Substitui a ANOVA de Medidas Repetidas
| Sujeito | Pré | Pós | Follow-up | Rank_Pré | Rank_Pós | Rank_Follow |
|---|---|---|---|---|---|---|
| 1 | 7 | 6 | 8 | 2 | 1 | 3 |
| 2 | 5 | 6 | 8 | 1 | 2 | 3 |
| 3 | 2 | 3 | 5 | 1 | 2 | 3 |
| 4 | 6 | 7 | 8 | 1 | 2 | 3 |
| 5 | 7 | 6 | 4 | 3 | 2 | 1 |
| 6 | 5 | 7 | 9 | 1 | 2 | 3 |
| 7 | 5 | 8 | 6 | 1 | 3 | 2 |
| 8 | 5 | 8 | 9 | 1 | 2 | 3 |
| 9 | 4 | 8 | 5 | 1 | 3 | 2 |
| 10 | 3 | 6 | 7 | 1 | 2 | 3 |
| Soma | 13 | 21 | 26 |
Obrigado!
Luiz Diego Vidal Santos
Universidade Estadual de Feira de Santana (UEFS)
UEFS — Análise de Dados Ambientais